摘要:
本文介绍了利用开放式百科全书维基百科获取语义关联词汇,并对语义相关程度进行分析和计算的方法。我们选择并整理了5万余篇维基百科中文语料,并利用超链接关系及词的互现等特征,获得了近40万对在概念或事实存在某种紧密语义关系的词,并简单分析了其聚类特性。进一步我们结合词在文档中的位置、频率等信息对语义相关程度进行了计算,并结合经典算法的相关结果,在不同语义相关度的集合上进行了对比实验,分析了本文获取语义关联词方法的有效性
摘要:
本文介绍了利用开放式百科全书维基百科获取语义关联词汇,并对语义相关程度进行分析和计算的方法。我们选择并整理了5万余篇维基百科中文语料,并利用超链接关系及词的互现等特征,获得了近40万对在概念或事实存在某种紧密语义关系的词,并简单分析了其聚类特性。进一步我们结合词在文档中的位置、频率等信息对语义相关程度进行了计算,并结合经典算法的相关结果,在不同语义相关度的集合上进行了对比实验,分析了本文获取语义关联词方法的有效性